子格式微型航空车(MAV)中的准确而敏捷的轨迹跟踪是具有挑战性的,因为机器人的小规模会引起大型模型不确定性,要求强大的反馈控制器,而快速的动力学和计算约束则阻止了计算上昂贵的策略的部署。在这项工作中,我们提出了一种在MIT SoftFly(一个子)MAV(0.7克)上进行敏捷和计算有效轨迹跟踪的方法。我们的策略采用了级联的控制方案,在该方案中,自适应态度控制器与受过训练的神经网络政策相结合,以模仿轨迹跟踪可靠的管模型模型预测控制器(RTMPC)。神经网络政策是使用我们最近的工作获得的,这使该政策能够保留RTMPC的稳健性,但以其计算成本的一小部分。我们通过实验评估我们的方法,即使在更具挑战性的操作中,达到均方根误差也低于1.8 cm,与我们先前的工作相比,最大位置误差减少了60%,并证明了对大型外部干扰的稳健性
translated by 谷歌翻译
In recent years, there have been abundant researches focused on indoor human presence detection based on laborious supervised learning (SL) and channel state information (CSI). These existing studies adopt spatial information of CSI to improve detection accuracy. However, channel is susceptible to arbitrary environmental changes in practice, such as the object movement, atmospheric factors and machine rebooting, which leads to degraded prediction accuracy. However, the existing SL-based methods require to re-train a new model with time-consuming labeling. Therefore, designing a semi-supervised learning (SSL) based scheme by continuously monitoring model "life-cycle" becomes compellingly imperative. In this paper, we propose bifold teacher-student (BTS) learning for presence detection system, which combines SSL by utilizing partial labeled and unlabeled dataset. The proposed primal-dual teacher-student network is capable of intelligently learning spatial and temporal features from labeled and unlabeled CSI. Additionally, the enhanced penalized loss function leveraging entropy and distance measure can distinguish the drifted data, i.e., features of new dataset are affected by time-varying effect and are alternated from the original distribution. The experimental results demonstrate that the proposed BTS system can sustain the asymptotic accuracy after retraining the model with unlabeled data. Moreover, label-free BTS outperforms the existing SSL-based models in terms of the highest detection accuracy, while achieving the similar performance of SL-based methods.
translated by 谷歌翻译
Semi-supervised object detection is important for 3D scene understanding because obtaining large-scale 3D bounding box annotations on point clouds is time-consuming and labor-intensive. Existing semi-supervised methods usually employ teacher-student knowledge distillation together with an augmentation strategy to leverage unlabeled point clouds. However, these methods adopt global augmentation with scene-level transformations and hence are sub-optimal for instance-level object detection. In this work, we propose an object-level point augmentor (OPA) that performs local transformations for semi-supervised 3D object detection. In this way, the resultant augmentor is derived to emphasize object instances rather than irrelevant backgrounds, making the augmented data more useful for object detector training. Extensive experiments on the ScanNet and SUN RGB-D datasets show that the proposed OPA performs favorably against the state-of-the-art methods under various experimental settings. The source code will be available at https://github.com/nomiaro/OPA.
translated by 谷歌翻译
The neural transducer is an end-to-end model for automatic speech recognition (ASR). While the model is well-suited for streaming ASR, the training process remains challenging. During training, the memory requirements may quickly exceed the capacity of state-of-the-art GPUs, limiting batch size and sequence lengths. In this work, we analyze the time and space complexity of a typical transducer training setup. We propose a memory-efficient training method that computes the transducer loss and gradients sample by sample. We present optimizations to increase the efficiency and parallelism of the sample-wise method. In a set of thorough benchmarks, we show that our sample-wise method significantly reduces memory usage, and performs at competitive speed when compared to the default batched computation. As a highlight, we manage to compute the transducer loss and gradients for a batch size of 1024, and audio length of 40 seconds, using only 6 GB of memory.
translated by 谷歌翻译
对于单眼深度估计,获取真实数据的地面真相并不容易,因此通常使用监督的合成数据采用域适应方法。但是,由于缺乏实际数据的监督,这仍然可能会导致较大的域间隙。在本文中,我们通过从真实数据中生成可靠的伪基础真理来开发一个域适应框架,以提供直接的监督。具体而言,我们提出了两种用于伪标记的机制:1)通过测量图像具有相同内容但不同样式的深度预测的一致性,通过测量深度预测的一致性; 2)通过点云完成网络的3D感知伪标记,该网络学会完成3D空间中的深度值,从而在场景中提供更多的结构信息,以完善并生成更可靠的伪标签。在实验中,我们表明我们的伪标记方法改善了各种环境中的深度估计,包括在训练过程中使用立体声对。此外,该提出的方法对现实世界数据集中的几种最新无监督域的适应方法表现出色。
translated by 谷歌翻译
即使具有像变形金刚这样的强序模型,使用远程音乐结构产生表现力的钢琴表演仍然具有挑战性。同时,构成结构良好的旋律或铅片(Melody + Chords)的方法,即更简单的音乐形式,获得了更大的成功。在观察上面的情况下,我们设计了一个基于两阶段变压器的框架,该框架首先构成铅片,然后用伴奏和表达触摸来修饰它。这种分解还可以预处理非钢琴数据。我们的客观和主观实验表明,构成和装饰会缩小当前最新状态和真实表演之间的结构性差异,并改善了其他音乐方面,例如丰富性和连贯性。
translated by 谷歌翻译
我们提出了一个新任务和数据集ScreenQA,以通过问答来理解屏幕内容。现有的屏幕数据集专注于结构和组件级别的理解,或者是更高级别的复合任务(例如导航和任务完成)。我们试图通过注释RICO数据集的80,000多个问题答案对,以弥合这两者之间的差距,以期基于屏幕阅读理解能力。
translated by 谷歌翻译
由于球形摄像机的兴起,单眼360深度估计成为许多应用(例如自主系统)的重要技术。因此,提出了针对单眼360深度估计的最新框架,例如Bifuse中的双预测融合。为了训练这样的框架,需要大量全景以及激光传感器捕获的相应深度地面真相,这极大地增加了数据收集成本。此外,由于这样的数据收集过程是耗时的,因此将这些方法扩展到不同场景的可扩展性成为一个挑战。为此,从360个视频中进行单眼深度估计网络的自我培训是减轻此问题的一种方法。但是,没有现有的框架将双投射融合融合到自我训练方案中,这极大地限制了自我监督的性能,因为Bi-Prodoction Fusion可以利用来自不同投影类型的信息。在本文中,我们建议Bifuse ++探索双投影融合和自我训练场景的组合。具体来说,我们提出了一个新的融合模块和对比度感知的光度损失,以提高Bifuse的性能并提高对现实世界视频的自我训练的稳定性。我们在基准数据集上进行了监督和自我监督的实验,并实现最先进的性能。
translated by 谷歌翻译
在计算机视觉中,多标签分类(包括零击的多标签分类)是具有许多真实应用程序的重要任务。在本文中,我们提出了一种新颖的算法,对齐双模态分类器(ADDS),其中包括一个双模式解码器(DM-DECODER),具有视觉和文本特征之间的对齐方式,用于多标签分类任务。此外,我们设计了一种简单但有效的方法,称为金字塔 - 福音,以提高分辨率高的输入的性能。在标准的多标签基准数据集(MS-Coco和NUS范围内)进行的广泛实验表明,我们的方法显着胜过以前的方法,并为常规多标签分类,零发射的多标签提供最先进的性能分类和一种称为单一标签分类的极端情况,其中在单标签数据集(Imagenet-1K,Imagenet-21K)上训练的模型在多标签的模型(MS-Coco和NUS范围内)进行了测试。我们还分析了视觉文本一致性如何有助于提出的方法,验证DM码头的重要性,并证明了金字塔 - 反向视觉变压器的有效性。
translated by 谷歌翻译
恶意软件(恶意软件)对我们的设备和生活造成了很大的伤害。我们渴望了解恶意软件的行为及其构成的威胁。恶意软件的大多数记录文件都是可变长度和基于文本的文件,并带有时间戳,例如事件日志数据和动态分析配置文件。使用时间戳,我们可以将此类数据分类为基于序列的数据以进行以下分析。但是,很难处理具有可变长度的基于文本的序列。此外,与自然语言文本数据不同,信息安全性中的大多数顺序数据具有特定的属性和结构,例如循环,重复调用,噪声等,以深入分析API调用序列及其结构,我们使用图表表示序列,可以进一步研究信息和结构,例如马尔可夫模型。因此,我们设计并实施了注意力集中的图形神经网络(AWGCN)来分析API调用序列。通过AWGCN,我们可以获取序列嵌入以分析恶意软件的行为。此外,分类实验结果表明,AWGCN在类似呼叫的数据集中的其他分类器优于其他分类器,并且嵌入可以进一步改善经典模型的性能。
translated by 谷歌翻译